丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
風(fēng)控與安全 正文
發(fā)私信給周蕾
發(fā)送

0

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

導(dǎo)語(yǔ):從“自給自足”的To C模式,到企業(yè)之間互聯(lián)互通的To B模式,再到金融、醫(yī)療、安防等全場(chǎng)景應(yīng)用的過(guò)程。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

聯(lián)邦學(xué)習(xí),無(wú)疑是當(dāng)前最受工業(yè)界和學(xué)術(shù)界關(guān)注的人工智能研究方向之一。

近兩年,在楊強(qiáng)教授等世界級(jí)專家的聯(lián)合推動(dòng)下,國(guó)內(nèi)外多數(shù)科技巨頭,均已開始搭建聯(lián)邦學(xué)習(xí)的研究與應(yīng)用團(tuán)隊(duì)。

基于此,雷鋒網(wǎng)《AI金融評(píng)論》與《AI科技評(píng)論》聯(lián)合邀請(qǐng)五位頂尖聯(lián)邦學(xué)習(xí)專家,啟動(dòng)《金融聯(lián)邦學(xué)習(xí)公開課》。其中在昨日的首節(jié)公開課上,微眾銀行首席AI官楊強(qiáng)教授分享了《聯(lián)邦學(xué)習(xí)前沿與應(yīng)用價(jià)值討論》。(課程全文與視頻回顧,將在公眾號(hào)《AI金融評(píng)論》發(fā)布)

今天,我們先來(lái)完整回顧下聯(lián)邦學(xué)習(xí)誕生三年來(lái),從“自給自足”的To C模式,到企業(yè)之間互聯(lián)互通的To B模式,再到金融、醫(yī)療、安防等全場(chǎng)景應(yīng)用的過(guò)程。

聯(lián)邦學(xué)習(xí)的誕生:一個(gè)有趣的To C設(shè)想

聯(lián)邦學(xué)習(xí)的概念,首次提出是在2017年的一篇Google AI Blog博文。

文章作者之一是Blaise Agu?ray Arcas,他2014年加入谷歌,此前在微軟任杰出工程師。加入谷歌后,Blaise領(lǐng)導(dǎo)了谷歌設(shè)備端on-device機(jī)器智能(Machine Intelligence)項(xiàng)目,同時(shí)負(fù)責(zé)基礎(chǔ)研究與新產(chǎn)品研發(fā)工作。

在他加入谷歌后不久,便開始了聯(lián)邦學(xué)習(xí)的研究。直到2017年,當(dāng)他們?nèi)〉昧艘欢ǖ某晒?,才在博文中進(jìn)行公布。

  • 設(shè)備上的聯(lián)邦學(xué)習(xí)

Blaise 等人(或許也在某種程度上代表谷歌)所關(guān)注的,更多是設(shè)備上的聯(lián)邦學(xué)習(xí)——這也正是聯(lián)邦學(xué)習(xí)概念被提出之初的應(yīng)用場(chǎng)景。

由于神經(jīng)網(wǎng)絡(luò)仍然受到學(xué)習(xí)效率的限制,它需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,所以一些大公司,如谷歌、微軟、亞馬遜等開始提供人工智能服務(wù)時(shí)需要收集大量的數(shù)據(jù),才能去訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)。這也是一直以來(lái),整個(gè)社區(qū)所做的事情。

對(duì)于設(shè)備端(例如手機(jī))的智能應(yīng)用,通常情況下的模式是,用戶在設(shè)備上產(chǎn)生的數(shù)據(jù)會(huì)被上傳到服務(wù)器中,然后由部署在服務(wù)器上的神經(jīng)網(wǎng)絡(luò)模型根據(jù)收集到的大量數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)模型,服務(wù)商根據(jù)這個(gè)模型來(lái)為用戶提供服務(wù)。隨著用戶設(shè)備端數(shù)據(jù)的不斷更新并上傳到服務(wù)器,服務(wù)器將根據(jù)這些更新數(shù)據(jù)來(lái)更新模型。很明顯這是一種集中式的模型訓(xùn)練方法。

然而這種方式存在幾個(gè)問(wèn)題:1)無(wú)法保證用戶的數(shù)據(jù)隱私,用戶使用設(shè)備過(guò)程中產(chǎn)生的所有數(shù)據(jù)都將被服務(wù)商所收集;2)難以克服網(wǎng)絡(luò)延遲所造成的卡頓,這在需要實(shí)時(shí)性的服務(wù)(例如輸入法)中尤其明顯。

Blaise等人便想,是否可以通過(guò)做一個(gè)大型的分布式的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練框架,讓用戶數(shù)據(jù)不出本地(在自己的設(shè)備中進(jìn)行訓(xùn)練)的同時(shí)也能獲得相同的服務(wù)體驗(yàn)。

解決之道便是:上傳權(quán)重,而非數(shù)據(jù)。

我們知道神經(jīng)網(wǎng)絡(luò)模型是由不同層的神經(jīng)元之間連接構(gòu)成的,層與層之間的連接則是通過(guò)權(quán)重實(shí)現(xiàn)的,這些權(quán)重決定了神經(jīng)網(wǎng)絡(luò)能夠做什么:一些權(quán)重是用來(lái)區(qū)分貓和狗的;另一組則可以區(qū)分桌子和椅子。從視覺(jué)識(shí)別到音頻處理都是由權(quán)重來(lái)決定的。神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練本質(zhì)上就是在訓(xùn)練這些權(quán)重。

那么Blaise提出的設(shè)備端聯(lián)邦學(xué)習(xí),不再是讓用戶把數(shù)據(jù)發(fā)送到服務(wù)器,然后在服務(wù)器上進(jìn)行模型訓(xùn)練,而是用戶本地訓(xùn)練,加密上傳訓(xùn)練模型(權(quán)重),服務(wù)器端會(huì)綜合成千上萬(wàn)的用戶模型后再反饋給用戶模型改進(jìn)方案。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

這里或許值得強(qiáng)調(diào),這種在設(shè)備端上的模型是經(jīng)壓縮過(guò)的,而非像服務(wù)器中那種大型神經(jīng)網(wǎng)絡(luò)模型。因此模型訓(xùn)練的耗能是非常小的,幾乎檢測(cè)不到。

此外,Blaise講了一個(gè)非常形象的比喻,即人會(huì)在睡覺(jué)的時(shí)候通過(guò)做夢(mèng)來(lái)更新自己的大腦認(rèn)知系統(tǒng);同樣設(shè)備終端的系統(tǒng)也可以通過(guò)閑置時(shí)進(jìn)行模型訓(xùn)練和更新。所以整體上,這并不會(huì)對(duì)用戶的使用體驗(yàn)造成任何影響。

總結(jié)一下設(shè)備上聯(lián)邦學(xué)習(xí)的過(guò)程

  1. 設(shè)備端下載當(dāng)前版本的模型;

  2. 通過(guò)學(xué)習(xí)本地?cái)?shù)據(jù)來(lái)改進(jìn)模型;

  3. 把對(duì)模型的改進(jìn),概括成一個(gè)比較小的更新;

  4. 該更新被加密發(fā)送到云端;

  5. 與其他用戶的更新即時(shí)整合,作為對(duì)共享模型的改進(jìn)。

整個(gè)過(guò)程有三個(gè)關(guān)鍵環(huán)節(jié)

  1. 根據(jù)用戶使用情況,每臺(tái)手機(jī)在本地對(duì)模型進(jìn)行個(gè)性化改進(jìn);

  2. 形成一個(gè)整體的模型修改方案;

  3. 應(yīng)用于共享的模型。該過(guò)程會(huì)不斷循環(huán)。

其優(yōu)點(diǎn)顯而易見:

首先,數(shù)據(jù)可以不上傳云端,服務(wù)提供商看不到用戶數(shù)據(jù),這能提高用戶數(shù)據(jù)隱私性。因此也就不必在隱私和功能之間權(quán)衡,可以兩者兼有。這一點(diǎn)在當(dāng)下數(shù)據(jù)隱私越來(lái)越受到重視的情況下特別重要。

其次,延時(shí)降低。如果將用戶所有數(shù)據(jù)都上傳到云端,且服務(wù)本身也是從云端進(jìn)行反饋,那么在網(wǎng)速較慢的環(huán)境下,網(wǎng)絡(luò)延時(shí)將會(huì)極大降低用戶體驗(yàn)。而聯(lián)邦學(xué)習(xí)加持下的服務(wù)則不會(huì)出現(xiàn)這種情況,因?yàn)榉?wù)本身就來(lái)自于本地。

同時(shí),聯(lián)邦學(xué)習(xí)的出現(xiàn),也使得用戶從人工智能的旁觀者,真正轉(zhuǎn)變?yōu)槿斯ぶ悄馨l(fā)展的參與者。

To B人工智能的困局:隱私保護(hù)、小數(shù)據(jù)、數(shù)據(jù)孤島

其實(shí)Google的聯(lián)邦學(xué)習(xí),并沒(méi)有解決企業(yè)之間數(shù)據(jù)孤島問(wèn)題。

Google的方案可以理解為To C的,應(yīng)用在用戶的手機(jī)端,是同一家公司根據(jù)內(nèi)部對(duì)To C業(yè)務(wù)的需求所產(chǎn)生的一套用以解決數(shù)據(jù)隱私問(wèn)題的方案。

而楊強(qiáng)教授牽頭建設(shè)的聯(lián)邦學(xué)習(xí)生態(tài)更多是To B模式,用以解決企業(yè)與企業(yè)之間的數(shù)據(jù)孤島難題,是一個(gè)更開放的類似企業(yè)聯(lián)盟的生態(tài)。

總體而言,Google的聯(lián)邦學(xué)習(xí)方案是橫向的,它使用的數(shù)據(jù)特征相同,因此只需要建同一個(gè)模型。

而新方案則是縱向聯(lián)邦學(xué)習(xí),不同企業(yè)之間的數(shù)據(jù)特征往往不同,所以即便面向的用戶是相同的場(chǎng)景,整個(gè)技術(shù)方案和實(shí)施框架也不一樣。

楊強(qiáng)教授曾在雷鋒網(wǎng)承辦的CCF-GAIR 2019「AI 金融專場(chǎng)」的大會(huì)報(bào)告中指出,利益驅(qū)使下,各家公司們過(guò)去并不愿意把數(shù)據(jù)拿出來(lái)和其他公司交換。除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢(shì)的「巨無(wú)霸」公司外,大多數(shù)企業(yè)難以以一種合理合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝,或者對(duì)于他們來(lái)說(shuō)需要付出巨大的成本來(lái)解決這一問(wèn)題。

此外,監(jiān)管當(dāng)局已經(jīng)采取頗為嚴(yán)格的隱私保護(hù)措施。

去年5月份歐洲首先提出數(shù)據(jù)隱私保護(hù)法GDPR,對(duì)人工智能機(jī)器的使用、數(shù)據(jù)的使用和數(shù)據(jù)確權(quán),都提出非常嚴(yán)格的要求,以至于Google被多次罰款,每次金額都在幾千萬(wàn)歐元左右。

因?yàn)镚DPR其中一則條文就是數(shù)據(jù)使用不能偏離用戶簽的協(xié)議,也許用戶的大數(shù)據(jù)分析,可以用作提高產(chǎn)品使用體驗(yàn),但是如果公司拿這些數(shù)據(jù)訓(xùn)練對(duì)話系統(tǒng),就違反了協(xié)議。如果公司要拿這些數(shù)據(jù)做另外的事,甚至拿這些數(shù)據(jù)和別人交換,前提必須是一定要獲得用戶的同意。

另外還有一些嚴(yán)格的要求,包括可遺忘權(quán),就是說(shuō)用戶有一天不希望自己的數(shù)據(jù)用在你的模型里了,那他就有權(quán)告訴公司,公司有責(zé)任把該用戶的數(shù)據(jù)從模型里拿出來(lái)。這種要求不僅在歐洲,在美國(guó)加州也實(shí)行了非常嚴(yán)格的類似的數(shù)據(jù)保護(hù)法。

中國(guó)對(duì)數(shù)據(jù)隱私和保護(hù)也進(jìn)行了非常細(xì)致的研究,從2009年到2019年有一系列動(dòng)作,而且越來(lái)越嚴(yán)格,經(jīng)過(guò)長(zhǎng)期的討論和民眾的交互,可能近期會(huì)有一系列正式的法律出臺(tái)。

其次,我們的數(shù)據(jù)大部分是小數(shù)據(jù):沒(méi)有好的模型就無(wú)法做到好的自動(dòng)化,好的模型往往需要好的大數(shù)據(jù),但往往高質(zhì)量、有標(biāo)簽的數(shù)據(jù)都是小數(shù)據(jù)。

而且數(shù)據(jù)都在變化,每個(gè)階段的數(shù)據(jù)和上一個(gè)階段的數(shù)據(jù)有不同的分布,也許特征也會(huì)有不同。實(shí)時(shí)標(biāo)注這些數(shù)據(jù)想形成好的訓(xùn)練數(shù)據(jù)又需要花費(fèi)很多人力。

當(dāng)前,大多數(shù)應(yīng)用領(lǐng)域均存在數(shù)據(jù)有限且質(zhì)量較差的問(wèn)題,在某些專業(yè)性很強(qiáng)的細(xì)分領(lǐng)域(如醫(yī)療診斷)更是難以獲得足以支撐人工智能技術(shù)實(shí)現(xiàn)的標(biāo)注數(shù)據(jù)。

三是“對(duì)抗學(xué)習(xí)”的挑戰(zhàn)。即針對(duì)人工智能應(yīng)用的作假,比如人臉識(shí)別就可以做假,針對(duì)面部進(jìn)行合成。如何應(yīng)對(duì)這種“對(duì)抗學(xué)習(xí)”的挑戰(zhàn),這是金融場(chǎng)景下人工智能安全領(lǐng)域的重大題目。

不僅金融場(chǎng)景,在法律場(chǎng)景也是這樣,醫(yī)療場(chǎng)景更是如此。每個(gè)醫(yī)院的數(shù)據(jù)集都是有限的,如果不能把這些數(shù)據(jù)打通,每個(gè)數(shù)據(jù)集就只能做簡(jiǎn)單的模型,也不能達(dá)到人類醫(yī)生所要求的高質(zhì)量的疾病識(shí)別。

在這樣的困境中,不少人覺(jué)得人工智能的冬天也許又一次到來(lái)了——但在聯(lián)邦學(xué)習(xí)研究者看來(lái),這正是一次技術(shù)躍遷的良機(jī)。

聯(lián)邦學(xué)習(xí):橫向、縱向、遷移

楊強(qiáng)這樣形容聯(lián)邦學(xué)習(xí)的精髓:

我們每個(gè)人的大腦里都有數(shù)據(jù),當(dāng)兩個(gè)人在一起做作業(yè)或者一起寫書的時(shí)候,我們并沒(méi)有把兩個(gè)腦袋物理性合在一起,而是兩個(gè)人用語(yǔ)言交流。所以我們寫書的時(shí)候,一個(gè)人寫一部分,通過(guò)語(yǔ)言的交流最后把合作的文章或者書寫出來(lái)。

我們交流的是參數(shù),在交流參數(shù)的過(guò)程中有沒(méi)有辦法保護(hù)我們大腦里的隱私呢?是有辦法的,這個(gè)辦法是讓不同的機(jī)構(gòu)互相之間傳遞加密后的參數(shù),以建立共享的模型,數(shù)據(jù)可以不出本地。

從簡(jiǎn)單定義來(lái)講,聯(lián)邦學(xué)習(xí)是在本地把本地?cái)?shù)據(jù)建一個(gè)模型,再把這個(gè)模型的關(guān)鍵參數(shù)加密,這種數(shù)據(jù)加密傳到云端也沒(méi)有辦法解密,因?yàn)樗玫降氖且粋€(gè)加密數(shù)據(jù)包,云端把幾千萬(wàn)的包用一個(gè)算法加以聚合,來(lái)更新現(xiàn)有的模型,然后再把更新后的模型下傳。重要的是,整個(gè)過(guò)程中Server云端不知道每個(gè)包里裝的內(nèi)容。

之前這種做法比較困難,但同態(tài)加密的出現(xiàn)讓運(yùn)算效率取得了重大提升,即加密算法可以隔著加密層去進(jìn)行運(yùn)算。不過(guò)需要注意的是這只是2C的例子,是云端面對(duì)大用戶群的例子。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

它可以把多項(xiàng)式的加密,分解成每項(xiàng)加密的多項(xiàng)式,A+B的加密,變成A的加密加B的加密,這是非常偉大的貢獻(xiàn)。因?yàn)檫@樣就使得我們可以拿一個(gè)算法,在外面把算法給全部加密,加密的一層可以滲透到里面的每個(gè)單元。能做到這一點(diǎn)就能改變現(xiàn)有的機(jī)器學(xué)習(xí)的教科書,把任何算法變成加密的算法。

對(duì)于橫向、縱向和遷移聯(lián)邦學(xué)習(xí),楊強(qiáng)給出了如下解釋:

  • 橫向聯(lián)邦學(xué)習(xí)

橫向聯(lián)邦學(xué)習(xí)是每行過(guò)來(lái)都可以看作一個(gè)用戶的數(shù)據(jù)。按照用戶來(lái)分,可以看作一、二、三個(gè)手機(jī),它叫橫向?qū)W習(xí)。還有一個(gè)原因是它們的縱向都是特征,比如手機(jī)型號(hào)、手機(jī)使用時(shí)間、電池以及人的位置等,這些都是特征。他們的特征都是一樣的,樣本都是不一樣的,這是橫向聯(lián)邦學(xué)習(xí)。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

主要做法是首先把信用評(píng)級(jí)得到,然后在加密狀態(tài)下做聚合,這種聚合里面不是簡(jiǎn)單的加,而是很復(fù)雜的加,然后把征信模型再分發(fā)下來(lái)。

  • 縱向聯(lián)邦學(xué)習(xí)

大家的Feature不一樣,一個(gè)機(jī)構(gòu)紅色、一個(gè)機(jī)構(gòu)藍(lán)色,大家可以想象兩個(gè)醫(yī)院,一個(gè)病人在紅色醫(yī)院做一些檢測(cè),在藍(lán)色的醫(yī)院做另外一些檢測(cè),當(dāng)我們知道這兩個(gè)醫(yī)院有同樣一群病人,他們不愿意直接交換數(shù)據(jù)的情況下,有沒(méi)有辦法聯(lián)合建模?

它們中間有一個(gè)部門墻,我們可以在兩邊各自建一個(gè)深度學(xué)習(xí)模型,建模的時(shí)候關(guān)鍵的一步是梯度下降,梯度下降我們需要知道幾個(gè)參數(shù),上一輪參數(shù)、Loss(gradients)來(lái)搭配下一個(gè)模型的weight參數(shù)。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

這個(gè)過(guò)程中我們需要得到全部模型的參數(shù)級(jí),這時(shí)候需要進(jìn)行交換,交換的時(shí)候可以通過(guò)同態(tài)加密的算法,也可以通過(guò)secure multiparty computation,這里面有一系列的算法,兩邊交換加密參數(shù),對(duì)方進(jìn)行更新,再次交換參數(shù),一直到系統(tǒng)覆蓋。

  • 遷移聯(lián)邦學(xué)習(xí)

它們?cè)谔卣魃弦粯樱蛘咴谔卣魃喜灰粯?,但是他們的用戶有些是有交集的,?dāng)用戶和特征沒(méi)有交集時(shí),我們退一步想,我們可以把他們所在的空間進(jìn)行降維或者升維,把他們帶到另外的空間去。

在另外的空間可以發(fā)現(xiàn)他們的子空間是有交互的,這些子空間的交互就可以進(jìn)行遷移學(xué)習(xí)。雖然他們沒(méi)有直接的特征和用戶的重合,我們還是可以找到共性進(jìn)行遷移學(xué)習(xí)。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

總的來(lái)說(shuō),聯(lián)邦學(xué)習(xí)的這種思想,事實(shí)上并不僅僅適用于設(shè)備用戶數(shù)據(jù)的隱私保護(hù)和模型更新。

我們將設(shè)備用戶抽象來(lái)看,視作數(shù)據(jù)的擁有者,可以是手機(jī)持有者,也可以是公司、醫(yī)院、銀行等;而服務(wù)器或云端視作模型共享綜合平臺(tái)。

作為一種新的學(xué)習(xí)范式,聯(lián)邦學(xué)習(xí)具有以下特點(diǎn):

  • 在聯(lián)邦學(xué)習(xí)的框架下,各參與者地位對(duì)等,能夠?qū)崿F(xiàn)公平合作;

  • 數(shù)據(jù)保留在本地,避免數(shù)據(jù)泄露,滿足用戶隱私保護(hù)和數(shù)據(jù)安全的需求;

  • 能夠保證參與各方在保持獨(dú)立性的情況下,進(jìn)行信息與模型參數(shù)的加密交換,并同時(shí)獲得成長(zhǎng);

  • 建模效果與傳統(tǒng)深度學(xué)習(xí)算法建模效果相差不大;

  • 聯(lián)邦學(xué)習(xí)是一個(gè)「閉環(huán)」的學(xué)習(xí)機(jī)制,模型效果取決于數(shù)據(jù)提供方的貢獻(xiàn)。

這樣一個(gè)直接命中人工智能發(fā)展痛點(diǎn)的新技術(shù),也開始進(jìn)入到各大應(yīng)用場(chǎng)景當(dāng)中。

聯(lián)邦學(xué)習(xí)與金融信貸風(fēng)控

在眾多金融業(yè)務(wù)環(huán)節(jié)中,飽受數(shù)據(jù)隱私和孤島效應(yīng)困擾的信貸風(fēng)控,無(wú)疑是實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)落地的最佳場(chǎng)景之一。

微眾銀行聯(lián)邦學(xué)習(xí)團(tuán)隊(duì)指出,基于聯(lián)邦學(xué)習(xí)的信貸風(fēng)控解決方案,能夠“在建模過(guò)程中,雙方交換梯度值,類似于方向向量的概念,交換的是中間變量,不是原始數(shù)據(jù)。同時(shí)對(duì)這個(gè)中間變量還進(jìn)行了同態(tài)加密,所以數(shù)據(jù)并不會(huì)出庫(kù),保證數(shù)據(jù)源和應(yīng)用方的數(shù)據(jù)安全。”

聯(lián)邦學(xué)習(xí)所采用的局部數(shù)據(jù)收集和最小化原則,將降低傳統(tǒng)中心化機(jī)器學(xué)習(xí)方法帶來(lái)的一些系統(tǒng)性隱私風(fēng)險(xiǎn)和成本,這樣的效果也正契合了信貸風(fēng)控的提升方向。

總的來(lái)說(shuō),這一做法是試圖通過(guò)聯(lián)邦數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行信貸風(fēng)控增強(qiáng),在貸前環(huán)節(jié)利用更豐富的數(shù)據(jù)信息綜合判斷客戶風(fēng)險(xiǎn),幫助信貸公司過(guò)濾信貸黑名單或明顯沒(méi)有轉(zhuǎn)化的貸款客戶,進(jìn)一步降低貸款審批流程后期的信審成本。

在貸中,采用聯(lián)邦學(xué)習(xí)的解決方案主要提供根據(jù)用戶放款后的行為變化進(jìn)行的風(fēng)險(xiǎn)評(píng)估產(chǎn)品,幫助放貸機(jī)構(gòu)進(jìn)行調(diào)額調(diào)價(jià)的輔助決策。

對(duì)于貸后風(fēng)險(xiǎn)處置,方案則提供可以根據(jù)客戶的行為進(jìn)行催收預(yù)測(cè)的產(chǎn)品,幫助放貸機(jī)構(gòu)進(jìn)行催收的策略評(píng)估,調(diào)整催收策略,提升催收效率。

微眾聯(lián)邦學(xué)習(xí)團(tuán)隊(duì)表示,在具體實(shí)施上,解決方案會(huì)先行使用聯(lián)邦學(xué)習(xí)云服務(wù)進(jìn)行業(yè)務(wù)冷啟動(dòng),并通過(guò)建立業(yè)務(wù)及AI模型閉環(huán),小樣本建模,后期持續(xù)迭代優(yōu)化模型的方式,實(shí)現(xiàn)項(xiàng)目數(shù)字化,便于消費(fèi)金融業(yè)務(wù)方及信貸合作方能夠持續(xù)積累業(yè)務(wù)數(shù)據(jù)優(yōu)化聯(lián)邦模型。

以微眾銀行與合作伙伴公司的情況為例,微眾的特點(diǎn)是有很多用戶Y,數(shù)據(jù)集可分為X和Y,X是用戶的特征和行為,Y是最后的結(jié)論,我們?cè)阢y行的結(jié)論是信用逾期是否發(fā)生,這是逾期概率,合作的伙伴企業(yè)可能是互聯(lián)網(wǎng)企業(yè)或者是賣車的或者賣保險(xiǎn),不一定有結(jié)論數(shù)據(jù)Y,但是它有很多行為信息X。

現(xiàn)在這兩個(gè)領(lǐng)域?qū)τ谕慌脩羧绻?,屬于縱向聯(lián)邦學(xué)習(xí),建立縱向聯(lián)邦學(xué)習(xí)的應(yīng)用,最后就取得了很好的效果,AUC指標(biāo)大為上升,不良率大為下降。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

通過(guò)合法合規(guī)的多維度聯(lián)邦數(shù)據(jù)建模,風(fēng)控模型效果約可提升12%,相關(guān)企業(yè)機(jī)構(gòu)有效節(jié)約了信貸審核成本,整體成本預(yù)計(jì)下降5%-10%,并因數(shù)據(jù)樣本量的提升和豐富,風(fēng)控能力進(jìn)一步增強(qiáng)。

對(duì)合作方信貸機(jī)構(gòu)而言,信貸風(fēng)控能力也大幅度提升。

通過(guò)初審篩選掉黑名單和不可能轉(zhuǎn)化貸款客戶,在“信審漏斗第一步”減去無(wú)效客戶,從而在信貸預(yù)審階段使單接口調(diào)用成本預(yù)計(jì)節(jié)省20-30%,有效控制了信貸審核成本。

聯(lián)邦學(xué)習(xí)與醫(yī)療AI

作為醫(yī)療AI成長(zhǎng)道路不可或缺的“糧食”,數(shù)據(jù)一直是醫(yī)療AI落地的“攔路虎”。

醫(yī)療健康數(shù)據(jù)領(lǐng)域長(zhǎng)期存在“信息孤島”問(wèn)題,不同地區(qū)甚至不同醫(yī)院間的醫(yī)療數(shù)據(jù)沒(méi)有互聯(lián),也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。與此同時(shí),數(shù)據(jù)安全問(wèn)題也存在著巨大挑戰(zhàn)。

就在昨日,騰訊天衍實(shí)驗(yàn)室公開宣布,其聯(lián)合微眾銀行研發(fā)的醫(yī)療聯(lián)邦學(xué)習(xí),在腦卒中預(yù)測(cè)的應(yīng)用上,準(zhǔn)確率在相關(guān)數(shù)據(jù)集中高達(dá)80%。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

聯(lián)邦學(xué)習(xí)可以繞過(guò)醫(yī)療機(jī)構(gòu)之間的信息壁壘,不考慮將各自數(shù)據(jù)做合并,而是通過(guò)協(xié)議在其間傳遞加密之后的信息,該加密過(guò)程具有一定的隱私保護(hù)機(jī)制,保證加密后的信息不會(huì)產(chǎn)生數(shù)據(jù)泄露。各個(gè)醫(yī)療機(jī)構(gòu)通過(guò)使用這些加密的信息更新模型參數(shù),從而實(shí)現(xiàn)在不暴露原始數(shù)據(jù)的條件下使用全部患者數(shù)據(jù)的訓(xùn)練過(guò)程。

舉例來(lái)說(shuō),假設(shè)醫(yī)院 A 和 B 想聯(lián)合訓(xùn)練一個(gè)腦卒中疾病預(yù)測(cè)模型,兩個(gè)醫(yī)院各自掌握科研病例數(shù)據(jù),此外,醫(yī)院 B 還擁有模型需要預(yù)測(cè)的標(biāo)簽數(shù)據(jù)如腦卒中發(fā)病標(biāo)簽。出于數(shù)據(jù)隱私保護(hù)和安全考慮,醫(yī)院A和 B無(wú)法直接進(jìn)行數(shù)據(jù)交換。聯(lián)邦學(xué)習(xí)系統(tǒng)則可以利用基于加密的患者樣本對(duì)齊技術(shù),在醫(yī)院 A 和 B 不公開各自數(shù)據(jù)的前提下確認(rèn)雙方的共有患者,并且不暴露不互相重疊的患者,以便聯(lián)合這些用戶的特征進(jìn)行建模,在確定共有用戶群體后,就可以利用這些數(shù)據(jù)訓(xùn)練疾病預(yù)測(cè)模型。

在這樣的一種方式下,聯(lián)邦學(xué)習(xí)技術(shù)就實(shí)現(xiàn)了保護(hù)不同醫(yī)院數(shù)據(jù)隱私的疾病預(yù)測(cè)模型,而這項(xiàng)技術(shù)也在疾病預(yù)測(cè)領(lǐng)域落地,天衍實(shí)驗(yàn)室和微眾銀行成功構(gòu)建了一個(gè)“腦卒中發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型”。

通過(guò)使用來(lái)自就診記錄數(shù)量TOP5的醫(yī)院真實(shí)就診數(shù)據(jù)驗(yàn)證,聯(lián)邦學(xué)習(xí)模型和集中訓(xùn)練模型表現(xiàn)幾乎一致,在腦卒中預(yù)測(cè)模型中的準(zhǔn)確率達(dá)到80%,僅比集中訓(xùn)練模型準(zhǔn)確率降低1%。

同時(shí),聯(lián)邦學(xué)習(xí)技術(shù)顯著提升了不同醫(yī)院的獨(dú)立模型效果,特別是,對(duì)于兩家腦卒中確診病例數(shù)量較少的醫(yī)院而言,聯(lián)邦學(xué)習(xí)分別提升其準(zhǔn)確率10%和20%以上。

除疾病預(yù)測(cè)模型外,雙方還會(huì)圍繞聯(lián)邦學(xué)習(xí)在醫(yī)療大數(shù)據(jù)領(lǐng)域的應(yīng)用落地進(jìn)行更多維度的合作,包括醫(yī)??刭M(fèi)、合理診斷、精準(zhǔn)醫(yī)療等領(lǐng)域,例如通過(guò)聯(lián)邦學(xué)習(xí)助力電子健康卡實(shí)現(xiàn)保護(hù)用戶隱私建模等等,進(jìn)而促進(jìn)醫(yī)療健康產(chǎn)業(yè)發(fā)展,提升醫(yī)療服務(wù)的質(zhì)量。

而在2019年醫(yī)學(xué)影像分析頂會(huì)MICCAI中,聯(lián)邦學(xué)習(xí)在醫(yī)學(xué)影像上的應(yīng)用正式進(jìn)入研究者的視野。

英偉達(dá)與倫敦國(guó)王學(xué)院以及一家法國(guó)初創(chuàng)公司Owkin合作,在新成立的倫敦醫(yī)學(xué)影像與人工智能中心中應(yīng)用了聯(lián)邦學(xué)習(xí)技術(shù)。

由于醫(yī)療數(shù)據(jù)的隱私規(guī)定,在集中數(shù)據(jù)湖中收集和共享患者數(shù)據(jù)通常是不可行的。這就給訓(xùn)練機(jī)器學(xué)習(xí)算法帶來(lái)了挑戰(zhàn),例如深度卷積網(wǎng)絡(luò)通常需要大量不同的訓(xùn)練示例。

聯(lián)邦學(xué)習(xí)通過(guò)將代碼帶給患者數(shù)據(jù)所有者,并且只在他們之間共享中間模型訓(xùn)練的信息,從而避開了這一困難。盡管適當(dāng)?shù)鼐酆线@些模型可以獲得更高精度的模型,但共享的模型可能會(huì)間接泄漏本地訓(xùn)練數(shù)據(jù)。

這項(xiàng)技術(shù)論文提出了一個(gè)用于腦腫瘤分割的聯(lián)邦學(xué)習(xí)系統(tǒng),探討了在聯(lián)邦學(xué)習(xí)系統(tǒng)中應(yīng)用微分隱私技術(shù)來(lái)保護(hù)病人數(shù)據(jù)的可行性。

此次試驗(yàn)是基于取自BraTS 2018數(shù)據(jù)集的腦腫瘤分割數(shù)據(jù)實(shí)施的,BraTS 2018 數(shù)據(jù)集包含有285位腦腫瘤患者的MRI掃描結(jié)果。

研究人員表示:“聯(lián)邦學(xué)習(xí)在無(wú)需共享患者數(shù)據(jù)的情況下,即可實(shí)現(xiàn)協(xié)作與分散化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。各節(jié)點(diǎn)負(fù)責(zé)訓(xùn)練其自身的本地模型,并定期提交給參數(shù)服務(wù)器。服務(wù)器不斷累積并聚合各自的貢獻(xiàn),進(jìn)而創(chuàng)建一個(gè)全局模型,分享給所有節(jié)點(diǎn)?!?/p>

研究人員進(jìn)一步解釋道,雖然聯(lián)邦學(xué)習(xí)可以保證極高的隱私安全性,但通過(guò)模型反演,仍可以設(shè)法使數(shù)據(jù)重現(xiàn)。為了幫助提高聯(lián)邦學(xué)習(xí)的安全性,研究人員研究試驗(yàn)了使用ε-差分隱私框架的可行性。這個(gè)框架是一種正式定義隱私損失的方法,可以借助其強(qiáng)大的隱私保障性來(lái)保護(hù)患者與機(jī)構(gòu)數(shù)據(jù)。

NVIDIA團(tuán)隊(duì)解釋到,聯(lián)邦學(xué)習(xí)有望有效聚合各機(jī)構(gòu)從私有數(shù)據(jù)中本地習(xí)得的知識(shí),從而進(jìn)一步提高深度模型的準(zhǔn)確性、穩(wěn)健性與通用化能力。

英偉達(dá)與倫敦國(guó)王學(xué)院研究人員在MICCAI上介紹了聯(lián)邦學(xué)習(xí)技術(shù)的更多實(shí)施細(xì)節(jié):

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在多種醫(yī)學(xué)應(yīng)用中都顯示出很好的效果,但它高度依賴于訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。在醫(yī)學(xué)成像方面,這構(gòu)成了一種特殊困難:例如,由于患者數(shù)量或病理類型的原因,所需的訓(xùn)練數(shù)據(jù)可能無(wú)法在單個(gè)機(jī)構(gòu)中獲得。同時(shí),由于醫(yī)療數(shù)據(jù)隱私規(guī)定,在集中數(shù)據(jù)湖中收集和共享患者數(shù)據(jù)通常是不可行的。

聯(lián)邦學(xué)習(xí)則允許在不共享患者數(shù)據(jù)的情況下對(duì)DNN進(jìn)行合作和分布式訓(xùn)練。每個(gè)節(jié)點(diǎn)都訓(xùn)練自己的本地模型,并定期將其提交給參數(shù)服務(wù)器。服務(wù)器收集并聚合各個(gè)節(jié)點(diǎn)模型以生成一個(gè)全局模型,然后與所有節(jié)點(diǎn)共享。

需要注意的是,訓(xùn)練數(shù)據(jù)對(duì)每個(gè)節(jié)點(diǎn)都是私有的,在學(xué)習(xí)過(guò)程中不會(huì)被共享。只共享模型的可訓(xùn)練權(quán)重或更新,從而保持患者數(shù)據(jù)的私密性。因此,聯(lián)邦學(xué)習(xí)簡(jiǎn)潔地解決了許多數(shù)據(jù)安全挑戰(zhàn),將數(shù)據(jù)放在需要的地方,并支持多機(jī)構(gòu)協(xié)作。

論文也披露了客戶端模型訓(xùn)練過(guò)程、服務(wù)器端模型聚合過(guò)程、部署在客戶端的隱私保護(hù)模塊,以及聯(lián)邦學(xué)習(xí)實(shí)驗(yàn)項(xiàng)目的配置與實(shí)驗(yàn)結(jié)果。研究人員表示,未來(lái)他們將探索用于醫(yī)學(xué)圖像分析任務(wù)的微分隱私SGD算法。

聯(lián)邦學(xué)習(xí)與安防

安防,是目前計(jì)算機(jī)視覺(jué)變現(xiàn)最快的領(lǐng)域。

宇視科技CEO張鵬國(guó)曾在接受雷鋒網(wǎng)專訪時(shí)提到,“當(dāng)前AI安防落地能力與用戶需求存有較大差距,前者還需面對(duì)數(shù)據(jù)隱私保護(hù)與安全管控、低成本、流程再造、組織變革等挑戰(zhàn)?!?nbsp;

具體來(lái)看,最為核心的痛點(diǎn)是,數(shù)據(jù)不夠多元,且異常封閉。

中國(guó)擁有龐大的人口數(shù)量、用戶量及圖像采集點(diǎn),相關(guān)企業(yè)得到數(shù)據(jù)之后經(jīng)過(guò)篩選、過(guò)濾、疊加、組合,會(huì)對(duì)自身算法效果有階段性提升。

但這類提升屬于個(gè)人式的、微乎其微式的。

每個(gè)安防廠商所建設(shè)的AI系統(tǒng)類似一個(gè)又一個(gè)的“煙囪”,“煙囪式”架構(gòu)也就是垂直的體系結(jié)構(gòu)。

每一個(gè)IT系統(tǒng)都有自己的存儲(chǔ)和設(shè)備,以及獨(dú)立的管理工具和數(shù)據(jù)庫(kù),不同的系統(tǒng)不能共享資源、不能交付和訪問(wèn),形成了資源孤島和信息孤島。

由于不同企業(yè)的數(shù)據(jù)庫(kù)模型設(shè)計(jì)和針對(duì)的目標(biāo)有所不同,他們也無(wú)法直接交換、共享模型。

即便相關(guān)企業(yè)間的數(shù)據(jù)庫(kù)可以融合,但受制于隱私、安全等問(wèn)題,也絕不可如此為之。

有場(chǎng)景缺數(shù)據(jù)、有數(shù)據(jù)難共享。這是包括AI安防在內(nèi)的諸多行業(yè)目前存在的普遍問(wèn)題,也是阻礙AI普惠的最大痛點(diǎn)。

一方面,AI在安防行業(yè)的探索才剛剛開始;另一方面,做好AI所必須的數(shù)據(jù)養(yǎng)料有限且質(zhì)量較差,不同數(shù)據(jù)源之間存在難以打破的壁壘。

除了少數(shù)幾家擁有海量用戶、具備產(chǎn)品和服務(wù)優(yōu)勢(shì)的巨無(wú)霸企業(yè)外,大多數(shù)中小型AI安防企業(yè)難以以一種合理、合法的方式跨越人工智能落地的數(shù)據(jù)鴻溝,或者需要付出巨大的成本來(lái)解決這一問(wèn)題。

多位學(xué)術(shù)界、工業(yè)界領(lǐng)頭人指出:從目前的研究進(jìn)展來(lái)看,“聯(lián)邦學(xué)習(xí)”技術(shù)可能是解決以上問(wèn)題的最佳選擇。

譬如A廠商有校園數(shù)據(jù)、B廠商有工廠數(shù)據(jù)、C廠商有社區(qū)數(shù)據(jù),且這三家廠商都使用了聯(lián)邦學(xué)習(xí)技術(shù)。

從業(yè)務(wù)層面出發(fā),A、B、C這三家廠商便直接獲得了兩種能力:1、最快速地優(yōu)化自身業(yè)務(wù);2、最快速地拓展新業(yè)務(wù)。

最快速地優(yōu)化自身業(yè)務(wù)表現(xiàn)在,平臺(tái)每天會(huì)有若干個(gè)類似A廠商的企業(yè)向平臺(tái)輸入加密后的數(shù)據(jù)模型,而這些數(shù)據(jù)模型中有A廠商非常缺乏的其他數(shù)據(jù)信息,而A廠商便可根據(jù)這些數(shù)據(jù)去更新自己的算法模型。

最快速地拓展新業(yè)務(wù)表現(xiàn)在,A、B、C每家廠商都有各自構(gòu)建好的模型,通過(guò)匯總?cè)サ玫礁蟮臄?shù)據(jù)模型,在不流通數(shù)據(jù)的情況下得到數(shù)據(jù)流通的最好效果,通過(guò)資源互補(bǔ)可以在最短時(shí)間內(nèi)安全地獲得對(duì)方的能力,去拓展新業(yè)務(wù)。

從隱私保護(hù)層面來(lái)看,通常智能攝像頭產(chǎn)生的數(shù)據(jù)會(huì)被上傳到后臺(tái)服務(wù)器中,然后由部署在服務(wù)器上的神經(jīng)網(wǎng)絡(luò)模型根據(jù)收集到的大量數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)模型,服務(wù)商根據(jù)這個(gè)模型來(lái)為用戶提供服務(wù)。

這是一種集中式的模型訓(xùn)練方法,這種方式很難保證數(shù)據(jù)隱私安全。

而聯(lián)邦學(xué)習(xí)就不再是讓數(shù)據(jù)發(fā)送到后臺(tái),而是在每個(gè)企業(yè)自己的服務(wù)器上進(jìn)行訓(xùn)練,并加密上傳訓(xùn)練模型,后臺(tái)會(huì)綜合成千上萬(wàn)的用戶模型后再反饋給用戶改進(jìn)方案。

其中一個(gè)典型應(yīng)用案例,就是微眾銀行與極視角聯(lián)合推出的中國(guó)首個(gè)視覺(jué)聯(lián)邦學(xué)習(xí)系統(tǒng)。

以視頻攝像頭中的火焰識(shí)別為例,AI工程師們可能千辛萬(wàn)苦訓(xùn)練了一個(gè)火焰檢測(cè)的識(shí)別模型,想要用在監(jiān)控?cái)z像頭中,識(shí)別是否有燃燒現(xiàn)象,從而對(duì)火災(zāi)發(fā)生的可能性進(jìn)行分析,實(shí)現(xiàn)火災(zāi)預(yù)警。

原有的AI算法可以比較準(zhǔn)確地識(shí)別有明顯大面積燃燒和明火發(fā)生的常見場(chǎng)景。然而,遇到打火機(jī)點(diǎn)出的火焰時(shí),攝像頭就有些“懵”了。

如果想讓模型增強(qiáng)識(shí)別能力,傳統(tǒng)的AI訓(xùn)練要求適用方能夠提供一些數(shù)據(jù)樣本,而這又出現(xiàn)了因網(wǎng)絡(luò)帶寬導(dǎo)致的算法準(zhǔn)確率不高及數(shù)據(jù)隱私等問(wèn)題。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

圖片來(lái)源:fedai.org

在聯(lián)邦視覺(jué)系統(tǒng)中,依托本地建模,在保證各方數(shù)據(jù)不出本地的情況下,即可提升AI算法準(zhǔn)確率。

在一次公開分享中,微眾銀行AI部門副總經(jīng)理陳天健透露,“在‘聯(lián)邦視覺(jué)系統(tǒng)’項(xiàng)目中,通過(guò)聯(lián)邦學(xué)習(xí)技術(shù),整體模型的性能提升了15%,且模型效果無(wú)損失,極大地提升了建模效率。”

聯(lián)邦學(xué)習(xí)的未知之地

信貸風(fēng)控、醫(yī)療和安防的應(yīng)用,都只是聯(lián)邦學(xué)習(xí)賦能各領(lǐng)域的冰山一角。

未來(lái)包括金融、醫(yī)療、安防、零售、政務(wù)、工業(yè)等各行各業(yè)、各個(gè)場(chǎng)景都可以依據(jù)此技術(shù)實(shí)現(xiàn)降本增效、開源節(jié)流。

聯(lián)邦學(xué)習(xí)的生態(tài)建設(shè)也在同步進(jìn)行,只有多方合作、多方認(rèn)可下的聯(lián)邦學(xué)習(xí)才有望實(shí)現(xiàn)效益最大化。

如果你也想?yún)⑴c到人工智能學(xué)習(xí)和落地的最前沿,了解聯(lián)邦學(xué)習(xí)的最新研究成果與應(yīng)用情況,請(qǐng)持續(xù)關(guān)注楊強(qiáng)教授的公開課全文整理回顧,以及《聯(lián)邦學(xué)習(xí)系列公開課》的其他課程。

聯(lián)邦學(xué)習(xí)誕生1000天的真實(shí)現(xiàn)狀丨萬(wàn)字長(zhǎng)文

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)